Model Selection

Webpage Parsing

# Webpage Parsing

Pix2struct Large

Pix2Struct is an image encoder-text decoder model trained on image-text pairs, suitable for various vision-language tasks

Transformers Supports Multiple Languages

Pix2struct Ocrvqa Base

Pix2Struct is a visual question answering model fine-tuned for OCR-VQA tasks, capable of parsing textual content in images and answering questions

Transformers Supports Multiple Languages

Pix2struct Docvqa Base

Pix2Struct is an image encoder-text decoder model trained on image-text pairs, supporting various tasks including image captioning and visual question answering.

Transformers Supports Multiple Languages

Pix2struct Base

Pix2Struct is an image encoder-text decoder model trained on various image-text pairs for tasks including image captioning and visual question answering.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase